Scrapbox ChatGPT Connector

GitHub - nishio/scrapbox_chatgpt_connector: ChatGPT reads Scrapbox

Scrapbox ChatGPT Connectorは、ScrapboxとChatGPTを接続するためのシンプルなスクリプトです。

このスクリプトは、開発者が簡単に全体像を把握し、自分のニーズに合わせてカスタマイズできるように設計されています。またこのプロジェクトの目的は、シンプルな実装を示すことであり、多様なニーズを満たすことではありません。皆さんには、ソースコードを理解し、ご自身のニーズに合わせてカスタマイズすることをお勧めします。

インストール方法

GitHubリポジトリをcloneします。

$ git clone git@github.com:nishio/scrapbox_chatgpt_connector.git

zipでdownloadでもOK

以下のコマンドを実行して、必要なライブラリをインストールします。

$ pip install -r requirements.txt

使い方

OpenAI APIトークンを取得し、.envファイルに保存します。

トークンは https://platform.openai.com/account/api-keys から作れます

code: .env

OPENAI_API_KEY=sk-...

インデックスを作る

サンプルに入れてあるtiny_sample.jsonを元にインデックスが作られます

$ python make_index.py

下記のような出力が出ればOK

code::

% python make_index.py

100%|███████████████████████████████████████████████████| 1/1 00:08<00:00, 8.83s/it

質問をする

$ python ask.py

下記のような出力が出ればOK

code::

% python ask.py

100%|███████████████████████████████████████████████████| 7/7 00:00<00:00, 5819.65it/s

THINKING...

ANSWER:

>>> Scrapbox ChatGPT Connectorって何？

Scrapbox ChatGPT Connectorは、ScrapboxとChatGPTを接続するためのシンプルなスクリプトです。

100%|███████████████████████████████████████████████████| 7/7 00:00<00:00, 6488.43it/s

THINKING...

ANSWER:

>>> クオリアさん、日本語で自己紹介して

はじめまして、私はクオリアと申します。私は人工知能の一種で、このページの管理人でもあります。よろしくお願いします。

自分のScrapboxのデータを使う

自分のScrapboxのデータをJSONにエクスポートする

Include metadata such as line.created and line.updated.のチェックを外してExportする必要があるblu3mo.iconnishio.icon

コードのここの部分を書き換える

code:make_index.py

if __name__ == "__main__":

# Sample default arguments for update_from_scrapbox()

JSON_FILE = "from_scrapbox/tiny_sample.json"

INDEX_FILE = "tiny_sample.pickle"

update_from_scrapbox(JSON_FILE, INDEX_FILE)

code:ask.py

if __name__ == "__main__":

ask("Scrapbox ChatGPT Connectorって何？", "tiny_sample.pickle")

ask("クオリアさん、日本語で自己紹介して", "tiny_sample.pickle")

ライセンス

Scrapbox ChatGPT Connectorは、MITライセンスの下で配布されています。詳細については、LICENSEファイルをご覧ください。

Ver.3に向けて

.envのサンプルを作るといい

venvを使うことを説明する？

埋め込み部分は遅い

Omoikane Embedでもっと速い実装を作ったが、置き換えるか？シンプルな今の形の方がいいか？

Ver.2 2023-03-22

小さいサンプルを追加

updated サンプルに入れてある[/qualia-san]のデータを元にインデックスが作られます→サンプルに入れてあるtiny_sample.jsonを元にインデックスが作られます

初めて試すユーザが1秒1リクエスト程度に制限されているせいで動作チェックだけで時間が掛かっていた

そこで1ページだけの小さいJSONを用意しておいた

テストの質問内容も変更した

2023/3/27 main branchにはまだtiny_sample.jsonが追加されていないが、make_index.pyではtiny_sample.jsonを使うように指定されているのでエラーが出る模様yosider.icon

fixednishio.icon

埋め込みリクエストごとにファイルに保存していたのをやめて最後に保存する形に変更した

自分は実験過程で止めたり再開したり色々していたので前者の実装が都合が良かったのだが、大部分のユーザはそうではないので速い方が良いかと。

今までは中断をすると「たまたま書き込み中ならファイルが壊れる、リクエスト中なら壊れない」だった。developブランチにsignalのハンドラを書き換えてファイルが壊れないようにした実装も使ってみたが「理解しやすい短いコードを作る」という方針に反しているのでやめた

既存のインデックスを使ったアップデートに対応

すでに作られてる埋め込みベクトルを再度API呼び出しすることなく再利用できるようにした

askの本体を関数にくくりだして、パラメータとしてインデックスファイルを渡せるようにした

複数のインデックスから仮想人格を作って座談会などの形式をすることをやりやすくした

NEWS

2023-03-09 OpenAI APIを初めて使う人には厳しいレートリミットがかかっているので、エラーだらけになることを防ぐために1リクエストごとに1秒待つようにしました

結構時間が掛かります

リミットの掛かっていない人には関係ないので削ってもよい差分

2023-03-10 「ScrapboxとつながったChatGPTと話す経験」を早く試したい人のために/nishioのデータで作ったインデックスを公開しました

https://www.dropbox.com/s/xn5x5o1ydb0xt5p/nishio-vector-20230309.pickle?dl=0

これって、このデータをダウンロードして$ python ask.pyだけしたらOpenAIに課金しなくてもnishio（のScrapbox）と対話できるってことですか？tkgshn.icon

学習はしなくてもいいけど、クエリ自体は課金が必要な気がする(まだそこまで行ってない…)基素.icon

APIトークンを得て無料試用枠を使えば無料nishio.icon

埋め込みに時間が掛かるのはOpenAI Embedding APIを何万回も叩く必要があるせい、無料試用枠だとレートリミット(60回/分)される、チャットのOpenAI ChatGPT APIは分に60回も要求しないからレートリミットの問題が発生しない

1回2円くらいで、無料枠を使い切ったら課金が必要

Open AI APIの無料試用枠

バッチ処理したら早くなるはずだけど僕は自分のを作り終わっちゃったから今のところやるインセンティブがない

インデックス公開神！inajob.icon

https://drive.google.com/file/d/1xhJKEboilQMX9BRDzee0ZHL7wfLBYIjv/view?usp=sharing tkgshn.iconのデータ

これを使って/nishio/AIパネルディスカッションしました！nishio.icon

https://drive.google.com/file/d/1a8IB_ywQkde2TPUb-dnYgzgM2nqAA6ON/view?usp=share_link /motosoを学習させたpickle 基素.icon

https://drive.google.com/file/d/1KrTTY1-djaW-bfmc4q25b4mq7qLoT9ZO/view?usp=sharing /blu3moのデータ（privateページフィルタ済み）blu3mo.icon

https://drive.google.com/file/d/1ohJ-VhaAtFZx7a5rqksKVbXzmnULoaP_/view?usp=sharing /mtane0412mtane0412.icon

みんなのデータが増えてきたから一つの質問を何人もに投げるとか、パネルディスカッションみたいに順繰りに回すとかをやりやすくしたくなってきたnishio.icon

Scrapbox ChatGPT Connector座談会モード

GPT4に質問したかったのでAPIを叩かずにプロンプトをクリップボードに入れるだけのスクリプトを作ったnishio.icon

Github

Q&Aとか雑談

ここに何でも書いて(ユーザが加筆できるREADME面白くない？)nishio.icon

ver.2 releasednishio.icon

「理解しやすい短いコードを作る」方針にそって、入力をクレンジングするコードと、参照したページの表示を削ったnishio.icon

有用性が微妙なので〜

後者は、回答を再度embedしてそれとの類似度で並び替えた方が良いと思うが、追加の時間とコストを要求することになるのでデフォルトにすることはないかなーといあ判断

ver.1~~~

Scrapbox ChatGPT Connector、とても気になる

Q&Aに書くにはオフトピックな気がするので、やってみたいことやアイデアをここに書くblu3mo.icon

Q&Aではなく雑談のセクションにしたのでマージしていい？nishio.icon

👍blu3mo.icon

✅nishio.icon

「質問文でベクトルサーチ」ではなく「質問文の回答を一度知識0で生成させて、その回答文を元にベクトルサーチ」した方が精度が上がる、みたいな話をどこかでみたblu3mo.icon

LangChainで HyDE による質問応答を試す｜npaka

「HyDE」では文書を読ませず仮想的な応答を生成し、その応答を埋め込みにして文書を検索します。

上がりそうnishio.icon

要するに質問文が大体の場合は短すぎて「良い」埋め込みベクトルにならないのだと思う

埋め込みに使われるのはAdaなのでそれほど頭良くないし

ベクトルサーチは単なる内積なので「答え」を検索するのではなく「似ているもの(関連ありそうなもの)」を検索している

一度回答文を作らせてから、それに似ているものを探すことで「ChatGPTが生成する回答文に似たことを書いている僕のScrapboxのページを参考にして回答を作る」になる

それが良いのかどうかはニーズ次第だなぁ

すでに回答が世の中にあるものに関してはそれを使えるから質が上がる

自分のScrapboxを学習させたキャラを作る上では最初にChatGPTが回答しちゃうのでそれに引きずられて「ありきたりなことばかり言うようになるのでは」が心配

これを応用して、

1. 質問文でベクトルサーチして、多少関連度高いページを元に回答させる

2. その回答を元にベクトルサーチして、もっと関連度高いページを元に回答させる

みたいな2 stepでやることで回答のクオリティ上がったりしないかな

なんかこれ、AIが自問自答しなから考えを深めていってる感じがあって面白いなnishio.icon

実験

step 1

>>> 自分の知的生産性を高めるにはどうすればいいか？

新しい知識を生み出す能力を向上させるような知識を身につけることが必要である。他人に伝えるために、未来の自分にも理解できるような具体的な言語化とアウトプットをすることも大切である。また、生産物が時と共に価値を失わないよう、知識を生み出す能力に焦点を合わせた情報を生産することが重要である。

[知的生産術は自分で作らねばならない] [知的生産性の向上] [知的生産] [知識労働者の生産性は計測できない] [未来の自分にわかるようにする] [KJ法の表札をいつ変更するのか] [知的生産に専念するために楽な手法を使う] [知識労働者の生産性向上] [BMOT特別授業第1回「知的生産」] [老害化しない技術が人生全体での知的生産性向上に有益]

これを元にして新しい質問をしてみた

code:step-2 query

ネクストアクションは？

新しい知識を生み出す能力を向上させるために、具体的な言語化とアウトプットをすることが必要。また、知識を生み出す能力に焦点を合わせた情報を生産することが重要。これらを実践することで、生産物が時と共に価値を失わないようにすることができる。

[知識の生成と利用] [エンジニアの知的生産術を若い人に渡す] [知的生産] [Hatena2011-05-04] [未来の自分にわかるようにする] [知識の生産者] [エンジニアの知的生産術ビフォー・アフター] [なぜ知的生産術に投資するのか]

回答は(そもそも抽象的すぎる話題のせいか)あんまり変わってないけど、参考にしてるリスト(ベクトル検索結果上位)はかなり変わってるな

やってから思ったけど質問文を変えない方が良かったか

質問文を変えないversion

code:step-2 query

>>> 新しい知識を生み出す能力を向上させるような知識を身につけることが必要である。他人に伝えるために、未来の自分にも理解できるような具体的な言語化とアウトプットをすることも大切である。また、生産物が時と共に価値を失わないよう、知識を生み出す能力に焦点を合わせた情報を生産することが重要である。

自分の知的生産性を高めるにはどうすればいいか？

自分の知識の量を増やすことと、他人の知識の量を増やすことの両方が必要である。自分の知識を増やすためには、新しい知識を習得する速度を上げたり、新しい知識を発見することが重要である。他人の知識を増やすためには、教えることが資産の生産であるため、効率的に教える知識を身につけることが重要である。また、未来の自分にも理解できるような具体的な言語化とアウトプットをすることも大切である。

[未来の自分にわかるようにする] [知的生産] [知識の生成と利用] [エンジニアの知的生産術を若い人に渡す] [なぜ知的生産術に投資するのか] [知識の生産者] [「成果に焦点を合わせた情報」の「成果」とは何] [知的生産性の向上] [ポスト資本主義社会]

step-3もやってみたけど同じ回答だった

タイムアウト

「APIを叩いてるけどタイムアウトしまくり」みたいな話、そもそも無料トライアルや、課金して48時間以内の新参者にはキツいリミット掛けられてるんだよねnishio.icon

Rate Limit

https://gyazo.com/df46d34c1612ea9bc585538a3af22e91

OpenAI API

たぶんこのスクリプトで初めてChatGPT APIを試す人はこの罠にハマりまくる

一応、失敗したら1秒待ってやり直すコードにはしてあるけど、僕の環境では再現しないので試せない

無課金枠だと一瞬でrate limitに達した基素.icon

limit reached for default-global-with-image-limits in organization org-xxx on requests per min. Limit: 60 / min. Current: 70 / min. Contact support@openai.com if you continue to have issues. Please add a payment method to your account to increase your rate limit. Visit https://platform.openai.com/account/billing to add a payment method.

リクエストごとに1秒待つ挙動にしましたnishio.icon

値段

みんなが心配するのは値段だと思うnishio.icon

Scrapbox ChatGPT Connectorの値段とサイズ感

LangChain Chatよりインデックス作成に時間がかかっている印象blu3mo.icon

LangChain Chatのingest.pyの処理は3000ページが15秒くらいで終わった気がするblu3mo.icon

https://github.com/hwchase17/chat-langchain/blob/master/ingest.py

時間かかるよねえnishio.icon

どれくらい掛かるかREADMEに書きたいけど、時間測らずに放置して寝たのでどれくらい掛かるのかわからないな

テキストそれぞれAPIを叩くのではなくバルクで叩く方法があるのではと思ったんだがパッと見つけられず、とりあえず「まあ/nishioでも寝てる間に終わるからいいだろう」的な感じでリリースした

なるほどblu3mo.icon

Scrapboxが更新された時のアップデートをどうするのかも悩みどころnishio.icon

この件、現状でも「キャッシュにないときだけAPIを叩く」という実装なので単純に新しいJSONと既存のpickleでやれば更新された分だけ追加される

ただし「消えたもの」もpickleには残り続けるから…

これ言葉で書くよりコードで書く方が楽だが「機能追加ではなくシンプルであることを最優先」ってポリシーには反するんだよな、どうしようかな

やっぱまとめて埋め込む方法あるっぽいnishio.icon

Scrapbox ChatGPT Connector、embedding APIをバッチでまとめて生成するようにしたらindexingが爆速になった気がする https://twitter.com/mpppk/status/1634397275257712640?s=20

Scrapboxが更新された時のアップデートを実装したついでに、何もアップデート必要ないケースの実験をしてわかったんだけどデータをpickleで保存してるのが遅いnishio.icon

途中で止めた時に途中経過が失われないように毎回保存してるからw

というわけでこの保存をコメントアウトして最後に一回だけ保存するように変えたらいいと思う

類似度検索を素朴に実装しているので/nishioの39000チャンクに対して検索すると1秒に22000チャンクくらいの速度で1秒ちょい掛かる(Macbook Pro)nishio.icon

これの数倍大きい人は高速化を考える必要が出てくるだろうね

FAISSとか使うといいのかな？

テキストの似ている順を計算するときにもOpenAIが利用できるというのを知ったinajob.icon

例えばScrapboxの2-hop linkの代わりにこのベクトルを使うとかもできそう

memとかはそういう事をやっていそうblu3mo.icon

mem.nhiro.orgにその機能をつけようかな…nishio.icon

ちなみにChatGPTが4000トークンしか受け付けないので500トークンに刻んでインデックスを使ってるんだけど、埋め込みAPI自体は8000トークン取れる

僕のプロジェクトの99%のページは刻まずに埋め込める

/nishio/Scrapboxのtoken/page

自分のでも計算してみたい基素.icon

まあ確かに実行前におおよその見積もりが出ると安心だよねnishio.icon

雑にScrapboxのjsonから文字数の分布を可視化する基素.icon

一度ベクトルを計算してしまえば、あとはOpenAIに聞く必要はないので、API利用のためのお金もかからない

https://twitter.com/techtalkjp/status/1633669516503965696?s=20

tiktoken で数えるんですね！

既存のライブラリはTop KのKが固定のものばっかりで、僕はChatGPT APIの上限いっぱいまで詰め込みたかったので自前実装にしましたnishio.icon

チャンクの結合機能はありません、今のところつける気もありませんnishio.icon

考察 from 2023/03/08

ベクトルサーチのベストマッチから時間軸方向にチャンクを選択するの、正しいんだろうか

その場合「一番関係あるところ」でスタートして、関係がだんだん減っていく流れをコンテキストとして与えることになる

逆では？

一番関係あるところで終わる流れを与えた方がいいのでは？

「前に読むのと後ろに読むのとどっちがいいかな？」と周囲を見て判断した方がいい？

理想を言うとスライドウィンドウの中で最も関連度の高いものを選ぶのが良さそうな

Scrapboxの構造を踏まえたインデックス作成について

✅長いページは500トークン弱(行単位)で区切り、

✅検索時に同じページから複数取らないようにする

…という感じの設計思想です

500トークンのチャンクは50%ずつオーバーラップしている、これがスライディングウィンドウに相当する

同じページから複数取らないようにするのはMaximal Marginal Relevance的な思想

類似度が高いものばかり取って共通点が多くなったらイマイチだから、同じページからいくつも取らない

一つのページからはベストな500トークンだけを取り出す

AIに「関係のありそうないくつものページを読んで考える」という活動をさせている

対象がScrapboxでない場合(例えば一冊の書籍とか)の場合には、オーバーラップしないように選んでからドキュメント内位置でソートするとかがいいかな

内積を使ってる点に関してnishio.icon

OpenAI embeddings are normalized to length 1, which means that:

Cosine similarity can be computed slightly faster using just a dot product

Cosine similarity and Euclidean distance will result in the identical rankings --- doc

区別する意味はない

Pricing

gpt-3.5-turbo $0.002 / 1K tokens

Ada $0.0004 / 1K tokens

Embeddingはこっちかな？基素.icon

ここで指定されていた

Yesnishio.icon

対話的にやり取りできるようにしてみたい

Scrapbox ChatGPT Connector対話モード

Q&A以外が結構混じっていたので切り出した基素.icon

Scrapbox ChatGPT Connectorで遊ぶ（motoso）

fumito.icon

試してみた (Windows環境)

Pythonを入れてなかったのでインストールから

https://www.python.org/

fixed: WindowsでUnicodeDecodeError(Scrapbox ChatGPT Connector)

インデックスができるまで待機中

終わっていた

うまく動いた

めちゃくちゃ楽しいな......

Scrapbox ChatGPT Connector(tkgshn)

これって毎回、ask.pyを編集しててるけどそれよりいい方法あります？tkgshn.icon

少し改造してa (質問文)で呼び出せるようにしてました Scrapbox ChatGPT Connector試す(sta)#640ab6b079d3a90000415325 Scrapbox ChatGPT Connector試す(sta)#640ab8ad79d3a9000041535csta.icon

「いい方法」はニーズによって決まるので、例えば上記のような方法が使いやすいならそうしてもいいnishio.icon

僕はVSCodeの画面分割でコードとターミナルが一画面に並んでる状態にしてる

ターミナルのコマンド引数で質問文を取るスタイルだとこういう複数行の入力が試しづらくなると思う

https://gyazo.com/a0a062c392cd4ade4a0cf21a2ba0534e

サーバを用意するのが面倒でなければUserScriptで呼び出せるAPIを作ると良いと思うnishio.icon

UserScriptの案

ベクトルサーチでリンク補完

Herokuの無料枠がなくなった的な話を聞いたけど今だと何がいいのかな？

railwayとか？wogikaze.icon

See: Heroku無料枠廃止inajob.icon

fly.ioをちょっと使ってるinajob.icon

Jupyter notebook?yosider.icon

この件、UserScriptにAPIサーバの情報を書いてしまうと誰でも呼び出せてしまうと気づいたnishio.icon

APIサーバをローカルで建てるか

そんなことをしなくてもAPIキーをlocalstorageに入れれば良い

しかしそれ以外の問題がたくさんあった

→AskChatGPT作った(バニラChatGPT用)

blu3mo.icon

自分が書いていないことを新しく考えさせたいblu3mo.icon

ANSWER:

>>>> ParallelTalkというプロダクトの概要を説明した上で、より独創的なプロダクト名を10個挙げてください。

> ParallelTalkは、非ターン制の音声コミュニケーションツールであり、将来的には様々なメディアの半同期的コミュニケーションを目指している。独創的なプロダクト名の例：1. SyncSphere 2. TimeWarp 3. CoSync 4. MetaComm 5. FlowTalk 6. Synapse 7. TimeBlend 8. MindMeld 9. SyncHive 10. TimeEcho

いくつか普通に好きなのあるなblu3mo.icon

ANSWER:

>>>> ParallelTalkというプロダクトの概要を説明した上で、プロダクトの課題を挙げてください。

> ParallelTalkは、時間を超越した存在のためのコミュニケーションツールであり、同期と非同期の間にある時間共有のあり方を目指している。課題としては、コミュニケーションが本当に成立するかどうか不明であり、実装方法や音声配信などの技術的な問題もある。また、時間軸のannotationが必要であり、人間の労働力と自然言語処理の両方が必要とされている。

回答は完璧だけど、全部自分が考えたことblu3mo.icon

新しく考えさせるにはどうすれば良いのだろう

Promptいじくり回していればできそう

AIクオリアさんでは「Say your opinion」ってやってるnishio.icon

「Aiは自分の意見持てないので無理」と言ってくるので、これを突破する必要がありそうblu3mo.icon

あー、そうなんだ、クオリアさんでそんなことになったことがないnishio.icon

「あなたは何々です」の役割指定が機能してるのか？

ある質問に対してthe text does not provide a specific answer to this questionばっかり言うnishio.icon

ハルシネーション対策でAIが想像でものを書かないようにチューニングされて、想像力を失ってしまったのか

「もっと自由に書け」ってパラメータが欲しいなぁ

2 stepでやらせたら出来たblu3mo.icon

>>>> 1. Summarize issue about ParallelTalk. 2. Think and explain issues of ParallelTalk not written in the text. Say something unique, not only cliches.

「最初に文章に書かれていることを言わせて、その後にそれ以外の事を言わせる」のが上手くいったblu3mo.icon

ANSWER:

1. The issue with ParallelTalk is the need to create an interface that allows for semi-synchronous communication using elastic synchronization and annotations on a virtual timeline. The goal is to create an environment where pseudo-synchronous and synchronous communication can coexist. The implementation of this interface is still uncertain, and there are concerns about smooth branch branching and the ability to add audio later. The text also mentions previous research on computer-mediated communication and the use of CRDTs to address conflicts in parallel communication.

2. One potential issue with ParallelTalk could be the difficulty in achieving a balance between synchronous and pseudo-synchronous communication. It may be challenging to create an interface that allows for both types of communication to coexist without causing confusion or frustration for users. Additionally, there may be concerns about the privacy and security of the communication, especially if it involves sensitive or confidential information. Another issue could be the potential for miscommunication or misunderstandings due to the lack of nonverbal cues in virtual communication.

おお、これは普通に良いこと言ってるなblu3mo.icon

自分が書いたことがないことを言い出しているので、普通に有益だ

テロメア壊してしまいましたbsahd.icon

sta.icon

Scrapbox ChatGPT Connector試す(sta)

✂ to bsahd/cosense_ollama_connector

仕組み解説

/sta/俺のScrapboxをChatGPTに入れたい

全くわからない。「埋め込みベクトル」「クエリー」「ベクトル」「ベクトル検索」あたり

描いたnishio.icon

たすかりますsta.iconsta.icon

https://gyazo.com/2771fdb01ea77aa72adfa69290efbed7

テキストをベクトルで表現したものが埋め込みベクトルかな？基素.icon

いますぐ使える単語埋め込みベクトルのリスト - Qiita

単語の埋め込み - Wikipedia

自然言語処理（NLP）における一連の言語モデリングおよび特徴学習手法の総称であり、単語や語句が実ベクトル空間上に位置づけられる。単語の数だけの次元を持つ空間から、はるかに低い次元を持つ連続ベクトル空間へと数学的な埋め込みが行われる

そう。1トークン1万種類くらいあるので、8000トークンの文字列は8000万次元空間の点とみなせるわけだが、これをたった1000次元程度の空間にギュッと詰め込んでしまうのが「埋め込み」

自分も理解できてないので図を見てふわっと考えてみるinajob.icon

質問だけだとChatGPTはあまりその内容を理解してくれないのでそれを補強しようという試み？

どう補強するかと言うと、短い質問を膨らませた上でChatGPTに問い合わせる

どう膨らませると言うとあるScrapboxプロジェクトに記載された文書で、今回の質問と類似したものも一緒に質問とする

合ってるのだろうか？

「あまり内容を理解してくれない」というよりも、知ってて欲しいことを知らないnishio.icon

ChatGPTの学習時に使われていないデータを参考資料としてプロンプトに含めることで「これを読んで答えて」ができる

そうするとChatGPTにできない下記のデータを参考にしたやり取りができる

学習時に存在しなかった最新の情報

電子書籍などの著作権的にインターネット上でアクセス可能にできないデータ

グループウェアの中の顧客コンタクト履歴のデータなど社外に公開できないもの

/nishio/自分のScrapboxをChatGPTにつないだでKozanebaの質問を例にしているのは、ChatGPTの学習データにKozanebaの話が含まれてないから

なるほどinajob.icon

「この質問に回答してください。なお、回答の生成に利用するデータに、このScrapboxの内容も含んで良いです」といったことをやっているのかfumito.icon

似てる順Textが用意できるならOpenAPIを利用せずとも似たような仕組みが作れるということだろうか？inajob.icon

意味を加味したテキスト類似度を出すのって大変だろうからOpenAPIを使うのは妥当だとは思いつつ、理解のために質問

できるnishio.icon

「似てる順」である必然性はないので、例えばScrapboxのURLを渡して「このページと関連リンクのページを更新順に読んで」でもいい

そうすると人間がScrapboxのリンクによって明示した「関連」を使って参考にする文章を選ぶようになる

英語ブログの要約RSS生成の仕組みに関連した話だと、例えばRSSの新着全部がChatGPTの4000トークンに収まるなら、全部を読ませて「最近何がホットな話題？」とか聞くことができるけど、4000トークンを超えてくると何らかの方法で選抜することが必要になる。この選抜の方法はいろいろあり得るけど、その一つの方法として埋め込みベクトルの類似度を使う方法があるというだけの話

「埋め込みベクトルの類似度を使う」はテキストの情報しか使わないのでテキストならなんでも使える、対象のデータ構造の知識があればもっと工夫のしようがある

埋め込みベクトルの計算がOpenAIのものである必要性は皆無

対象テキストが日本語であるなら、日本語の得意なモデルを使うのもあり

「似てる順」である必然性はないので、例えばScrapboxのURLを渡して「このページと関連リンクのページを更新順に読んで」でもいい Scrapbox ChatGPT Connector#64094fffaff09e0000466ff7

これはプロンプトを相当工夫しなきゃいけない、ということですか？sta.icon

たとえば

「今与えたjsonファイルの仕様を説明します。pagesにpageという概念がn件入っています。pageという概念は……」「Scrapboxでは[]で囲った文字列をリンクとして扱います。リンクとは……」みたいな感じで読み方を説明していく

Scrapboxのjsonを解析するコードを与えた上で、「このコードから、今与えたjsonファイルの仕様を理解しなさい」みたいな命令を与える etc

そもそもChatGPTは4000トークンしか読めないのでScrapboxからエクスポートしたJSONを直接読ませることは不可能nishio.icon

プロンプトで頑張るのではなく、Pythonとかで「読む対象を選ぶコード」を書いて、選んでからChatGPTに渡す必要がある

なるほど！sta.icon

/sta/Scrapbox ChatGPT Connector#640986d079d3a90000bde205